Kỹ thuật ngoại diện Tổng_hợp_giọng_nói

Chuẩn hóa văn bản

Quá trình chuẩn hóa văn bản thường không đơn giản. Lý do là các văn bản thường chứa nhiều từ đồng tự, sốtừ viết tắt đòi hỏi hiểu để diễn đạt lại trong văn bản đầy đủ.

Trong một số ngôn ngữ, các từ có thể được phát âm khác nhau tùy theo ngữ cảnh. Đa số hệ thống tổng hợp giọng nói không tạo ra thể hiện văn phạm cho văn bản, vì quá trình này hiện chưa có công nghệ đáng tin cậy. Thay vào đó, nhiều cách lần mò được dùng để phân biệt các cách phát âm, như tìm các từ kế cận hay dùng thống kê về tần số xuất hiện.

Việc chọn cách phát âm số cũng là một vấn đề. Lý do là cũng có nhiều cách phất âm số tùy theo văn cảnh. Như 1325 có thể đọc "một nghìn ba trăm hai mươi nhăm" nếu nó là một số tự nhiên, nhưng cũng có thể là "một ba hai năm" nếu nó là bốn số mật mã ngân khoản. Thường hệ thống tổng hợp giọng nói có thể đoán văn cảnh bằng việc quan sát các từ kế cận, các số hay dấu câu bên cạnh, hoặc dùng trường hợp mặc định khi không thể phân định.

Tương tự, các cách viết tắt cũng có thể mang nhiều nghĩa, tùy thuộc quy ước của người viết.

Văn bản sang âm vị

Các hệ thống tổng hợp giọng nói dùng hai cách cơ bản để xác định cách phát âm cho một từ, một quá trình còn được gọi là chuyển đổi văn bản-sang-âm vị hay tự vị-sang-âm vị, vì âm vị là thuật ngữ dùng bởi các nhà ngôn ngữ học để mô tả các âm khác nhau trong ngôn ngữ.

Cách thứ nhất, và đơn giản nhất, là dựa vào từ điển, sử dụng một từ điển lớn chứa tất cả các từ của một ngôn ngữ và chứa cách phát âm đúng tương ứng cho từng từ, lưu trong máy tính. Việc xác định cách phát âm đúng cho một từ chỉ đơn giản là tra trong từ điển và thay đoạn văn bản bằng mã phát âm đã ghi trong từ điển.

Cách thứ hai là dựa trên quy tắc, sử dụng các quy tắc phát âm để tìm ra cách phát âm tương ứng cho mỗi từ phù hợp với quy tắc.

Mỗi cách đều có ưu điểm và nhược điểm. cách dựa trên từ điển nhanh và chính xác, nhưng sẽ không hoạt động nếu từ cần phát âm không có trong từ điển và lượng từ vựng cần lưu là lớn. Cách dùng quy tắc hoạt động với mọi văn bản (miễn là phù hợp với quy tắc) nhưng độ phức tạp của các quy tắc có thể tăng cao nếu ngôn ngữ có nhiều trường hợp bất quy tắc trong phát âm. Hầu hết các hệ thống tổng hợp giọng nói đều dùng kết hợp cả hai cách.

Một số ngôn ngữ, như tiếng Tây Ban Nha hay tiếng Việt, có hệ thống viết dựa trên cách phát âm một cách rất có quy tắc, và việc tiên đoán cách phát âm từ cách viết thường có tỷ lệ thành công cao. Các hệ thống tổng hợp giọng nói cho các ngôn ngữ này thường dùng chủ yếu cách dựa trên quy tắc, chỉ tra từ điển một vài từ đặc biệt như tên vay mượn từ nước ngoài.

Một số ngôn ngữ khác, như tiếng Anh, có hệ thống phát âm rất bất quy tắc, thường cần hệ thống tổng hợp giọng nói dựa chủ yếu trên từ điển và dùng các quy tắc cho những từ không có trong từ điển.

Liên quan